iT邦幫忙

2024 iThome 鐵人賽

DAY 8
0
AI/ ML & Data

從零開始學 MLOps,一起建立一個自動化機器學習系統吧!系列 第 8

[Day 8] 建構 ML 系統的挑戰 — 資料漂移

  • 分享至 

  • xImage
  •  

摘要

  當資料隨時間變動,可能導致原有的模型無法得到預期結果。資料漂移、概念漂移和資料庫漂移是資料變動的三種形式,分別影響模型的輸入特徵分布、輸出標籤和資料結構。為了應對這些變動,可以採用「橋接」策略,將舊資料調整為新格式,確保模型在過渡期間繼續運行並兼容新資料。

資料漂移

定義

  在學習機器學習的初期,我曾學到這樣的概念:「可以將機器學習模型視為一個一對一的函數,測試樣本是輸入 x,經過 f(x) 這個函數後,會得到一個固定的輸出 y。」也就是說,在模型沒有吃到新的訓練資料的狀況下,整體流程應該要是靜態的,相同的輸入會得到相同的結果(類似的概念請參考 [Day 7] 建構 ML 系統的挑戰 — 再現性)。然而,資料是會發生變動的,如果函數相同,輸入改變,這個函數可能就無法得出我們需要的結果。
  資料漂移指的就是資料分布隨時間改變的現象,例如類別分布與過去不同,導致模型輸出的結果無法符合當前的需求。

相似的概念

  • 資料漂移 (data drift):指的是輸入特徵的統計分布變化。例如,數值特徵的平均值或標準差發生變化,或是類別特徵的分布比例改變。這種變化會影響模型的輸出結果,因為模型是基於過去的數據分布進行訓練的。
  • 概念漂移 (concept drift):當輸出標籤或數值的統計性質變化時,模型對應的預測目標也會改變。這可能是模型需要重新學習的情況,因為資料與過去不同。
  • 資料庫漂移 (database drift, schema drift):資料的結構發生改變,例如特徵欄位的數量、類型或名稱發生變化。這種情況需要模型的輸入格式重新調整。

解決方案:Bridged Schema

  嘗試將訓練資料從舊有的、原始的資料格式調整成一個更符合現實需求的新格式。由於新資料的累積需要時間,我們不可能在這段期間完全停滯模型的調整,因此可以採取「橋接 (bridge)」的策略:調整舊資料的格式、單位或計算方式,來過渡模型更新期。這樣不僅能夠確保模型在過渡期間繼續運行,也能讓新的模型順利兼容並利用舊資料,具體的實施方法和問題將在明天進一步說明。

參考資料


上一篇
[Day 7] 建構 ML 系統的挑戰 — 再現性
下一篇
[Day 9] 設計模式:橋接資料格式 (Bridged Schema)
系列文
從零開始學 MLOps,一起建立一個自動化機器學習系統吧!12
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言